circlize 之 High-level genomic functions
这一节将结束 基因组的环形图可视化 了,下一节开启 circlize 绘制 和弦图 的章节。
在本章中,我们将介绍一些创建轨道的 高级函数 。
1、Ideograms(不知道咋翻译好)
circos. initializewithidegram()
初始化环形图,如果 cytoband 数据可用,则添加 Ideograms 轨道。实际上,这些 Ideograms 是由 circos.genomicIdeogram()
绘制的。circos.genomicIdeogram()创建了一个 Ideograms 的小轨道,可以在环形图的任何地方使用。默认情况下,它为人类基因组 hg19:
circos.initializeWithIdeogram(plotType = c("labels", "axis"))
circos.track(ylim = c(0, 1))
# 把 Ideograms 绘制在第3个轨道
circos.genomicIdeogram()
# 绘制高度0.2的 Ideograms 轨道
circos.genomicIdeogram(track.height = 0.2)
2、热图
对应于基因组区域的矩阵可以用热图可视化。热图完全填满了轨道,并且有连接热图和基因组原始位置的连接线。circos.genomicHeatmap()
将连线和热图绘制成两个轨道,并将它们组合成一个完整的轨道。
一般情况下,输入数据框中的所有数值列(不包括前三列)都用于制作热图。列也可以用 numeric.column 指定,可以是数值向量或字符向量。颜色可以指定为颜色矩阵或由 colorRamp2()
颜色函数生成的。
连接线轨道和热图轨道的高度可以通过 connection_height 和 heatmap_height 参数来设置,另外,线条和矩形边框的样式参数也可以调整,请查看 circos.genomicHeatmap()
的参考文档:
circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 100, nc = 4)
col_fun = colorRamp2(c(-1, 0, 1), c("green", "black", "red"))
circos.genomicHeatmap(bed, col = col_fun, side = "inside", border = "white")
circos.clear()
设置 side = "outside",把热图放置在外侧,调整热图和连接线的高度,热图单元格边框颜色:
circos.initializeWithIdeogram(plotType = NULL)
circos.genomicHeatmap(bed, col = col_fun, side = "outside",
line_col = as.numeric(factor(bed[[1]])),
connection_height = 0.3,
heatmap_height = 0.2,
border = 'white')
circos.genomicIdeogram()
circos.clear()
3、标签
circos.genomicLabels()
为指定的区域添加文本标签。标签的位置会自动调整,使它们不会相互重叠。
与 circos.genomicHeatmap()类似,circos.genomicLabels()也创建了两个轨道,其中一个是连接线,另一个是标签。可以通 labels_height = max(strwidth(labels))
设置标签的高度为标签的最大宽度。padding 参数控制两个相邻标签之间的间隙:
circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 50, fun = function(k) sample(letters, k, replace = TRUE))
bed[1, 4] = "aaaaa"
circos.genomicLabels(bed, labels.column = 4, side = "inside")
circos.clear()
标签放置在外侧并设置标签和连线颜色:
circos.initializeWithIdeogram(plotType = NULL)
circos.genomicLabels(bed, labels.column = 4, side = "outside",
col = as.numeric(factor(bed[[1]])), line_col = as.numeric(factor(bed[[1]])))
circos.genomicIdeogram()
circos.clear()
4、基因组坐标
对于 circos. initializewithidegram()
,默认情况下,它绘制带有恰当格式的刻度标签的轴。轴是由 circos.genomicAxis()
内部实现的,它可以用于在任何轨道上添加基因组坐标轴:
circos.initializeWithIdeogram(plotType = NULL)
circos.genomicIdeogram()
# still work on the ideogram track
# 绘制坐标轴在上边
circos.track(track.index = get.current.track.index(), panel.fun = function(x, y) {
circos.genomicAxis(h = "top")
})
# 设置轨道高度
circos.track(ylim = c(0, 1), track.height = 0.1)
# 绘制坐标轴朝里,在下边
circos.track(track.index = get.current.track.index(), panel.fun = function(x, y) {
circos.genomicAxis(h = "bottom", direction = "inside")
})
circos.clear()
5、基因密度图和降雨图
降雨分布图用于可视化基因组区域在基因组中的分布。雨量分布图对于识别 regions
的 cluster
特别有用。在降雨图中,每个点代表一个 region。x 轴对应于基因组坐标,y 轴对应于该区域与其相邻两个 region 的最小距离(log10 转换)。一个 cluster 的 region 将以降雨的形式展示在图中。
circos.genomicRainfall()
计算每个区域的邻近距离,并在图上绘制点。由于 circos.genomicRainfall()生成 y 方向的数据(log10(distance)),它实际上是一个创建新轨道的高级函数。
输入数据可以是一个数据框,也可以是数据框的列表:
circos.genoimcRainfall(bed)
circos.genoimcRainfall(bed_list, col = c("red", "green"))
然而,如果 cluster 中的 region 数量很高,点就会重叠,直接评估 cluster 中的 region 数量和密度是不可能的。为了克服这一限制,添加了其他轨道来可视化区域的基因组密度(定义为基因组区域覆盖的基因组窗口)。
circos.genomicDensity()
计算一个基因组窗口被 regions 覆盖了多少。它也是一个高级功能,创建一个新的轨道。输入数据可以是单个数据框,也可以是数据框列表:
circos.genomicDensity(bed)
circos.genomicDensity(bed, baseline = 0)
circos.genomicDensity(bed, window.size = 1e6)
circos.genomicDensity(bedlist, col = c("#FF000080", "#0000FF80"))
下面的例子给出了差异甲基化区域(DMR)及其基因组密度的降雨图。在图中,红色对应着 DMRs 的高甲基化(甲基化增加),蓝色对应着 DMRs 的低甲基化(甲基化缺失):
load(system.file(package = "circlize", "extdata", "DMR.RData"))
circos.initializeWithIdeogram(chromosome.index = paste0("chr", 1:22))
bed_list = list(DMR_hyper, DMR_hypo)
circos.genomicRainfall(bed_list, pch = 16, cex = 0.4, col = c("#FF000080", "#0000FF80"))
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), track.height = 0.1)
circos.genomicDensity(DMR_hypo, col = c("#0000FF80"), track.height = 0.1)
circos.clear()
circos.genomicDensity()
还支持通过设置 count_by = "number"
来计算每个窗口重叠区域的数量:
circos.initializeWithIdeogram(chromosome.index = paste0("chr", 1:22))
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), track.height = 0.1)
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), count_by = "number", track.height = 0.1)
circos.clear()
在内部,rainfallTransform()
和 genomicDensity()
用于计算邻近距离和基因组密度值:
head(rainfallTransform(DMR_hyper))
## chr start end dist
## 70 chr1 933445 934443 35323
## 104 chr1 969766 970362 4909
## 105 chr1 975271 976767 4909
## 154 chr1 1108819 1109923 31522
## 155 chr1 1141445 1142405 31522
## 157 chr1 1181550 1182782 39145
head(genomicDensity(DMR_hyper, window.size = 1e6))
## chr start end value
## 1 chr1 1 1000000 0.003093
## 2 chr1 500001 1500000 0.007592
## 3 chr1 1000001 2000000 0.008848
## 4 chr1 1500001 2500000 0.010155
## 5 chr1 2000001 3000000 0.011674
## 6 chr1 2500001 3500000 0.007783
嵌套缩放
1、基本思想
在之前文章中,我们介绍了如何将扇区放大到同一轨道上的同一圆中。如果只需要缩放少数区域,这种方法就可以很好地工作。然而,当需要缩放的区域过多时,该方法将无法有效地工作。接下来,介绍另一种缩放方法,将缩放区域放在不同的圆形图中。
为了说明基本思想,我们首先生成一个随机数据集:
set.seed(123)
df = data.frame(cate = sample(letters[1:8], 400, replace = TRUE),
x = runif(400),
y = runif(400),
stringsAsFactors = FALSE)
df = df[order(df[[1]], df[[2]]), ]
rownames(df) = NULL
df$interval_x = as.character(cut(df$x, c(0, 0.2, 0.4, 0.6, 0.8, 1.0)))
df$name = paste(df$cate, df$interval_x, sep = ":")
df$start = as.numeric(gsub("^\\((\\d(\\.\\d)?).*(\\d(\\.\\d)?)]", "\\1", df$interval_x))
df$end = as.numeric(gsub("^\\((\\d(\\.\\d)?),(\\d(\\.\\d)?)]$", "\\3", df$interval_x))
nm = sample(unique(df$name), 20)
df2 = df[df$name %in% nm, ]
correspondance = unique(df2[, c("cate", "start", "end", "name", "start", "end")])
zoom_sector = unique(df2[, c("name", "start", "end", "cate")])
zoom_data = df2[, c("name", "x", "y")]
data = df[, 1:3]
sector = data.frame(cate = letters[1:8], start = 0, end = 1, stringsAsFactors = FALSE)
sector_col = structure(rand_color(8, transparency = 0.5), names = letters[1:8])
下面的变量用于下游可视化。扇区包含扇区名称和 x 方向坐标:
head(sector, n = 4)
## cate start end
## 1 a 0 1
## 2 b 0 1
## 3 c 0 1
## 4 d 0 1
data 包含一个轨道的点:
head(data, n = 4)
## cate x y
## 1 a 0.02314449 0.2170480
## 2 a 0.03978064 0.8062479
## 3 a 0.06893260 0.6284048
## 4 a 0.07997291 0.5835629
在扇区中,我们随机抽样几个区间,这些区间将用于缩放。缩放间隔区存储在 zoom_sector 中。在缩放轨道中,每个间隔被视为一个独立的扇区,因此,每个缩放间隔的名称使用了原始扇区名称和间隔本身的组合,便于理解:
head(zoom_sector, n = 4)
## name start end cate
## 17 a:(0.4,0.6] 0.4 0.6 a
## 48 a:(0.8,1] 0.8 1.0 a
## 57 b:(0,0.2] 0.0 0.2 b
## 76 b:(0.4,0.6] 0.4 0.6 b
缩放间隔区数据:
head(zoom_data, n = 4)
## name x y
## 17 a:(0.4,0.6] 0.4072693 0.3972460
## 18 a:(0.4,0.6] 0.4186692 0.2021846
## 19 a:(0.4,0.6] 0.4481431 0.3554347
## 20 a:(0.4,0.6] 0.4597852 0.6696035
原始扇区和缩放间隔区之间的对应是对应的。该值是一个有六列的数据框:
head(correspondance, n = 4)
## cate start end name start.1 end.1
## 17 a 0.4 0.6 a:(0.4,0.6] 0.4 0.6
## 48 a 0.8 1.0 a:(0.8,1] 0.8 1.0
## 57 b 0.0 0.2 b:(0,0.2] 0.0 0.2
## 76 b 0.4 0.6 b:(0.4,0.6] 0.4 0.6
缩放实际上是由两个环形图组成,其中一个是原始轨道,另一个是缩放间隔图。还有一个附加的连接轨道,用于标识缩放的间隔属于哪个扇区。circlize 中的 circos.nested()
函数将两个环形图放在一起,排列它们,并自动绘制连接线。
要生成嵌套循环图,需要将生成图的代码包装到一个函数中:
f1 = function() {
circos.par(gap.degree = 10)
circos.initialize(sector[, 1], xlim = sector[, 2:3])
circos.track(data[[1]], x = data[[2]], y = data[[3]], ylim = c(0, 1),
panel.fun = function(x, y) {
circos.points(x, y, pch = 16, cex = 0.5, col = "red")
})
}
f2 = function() {
circos.par(gap.degree = 2, cell.padding = c(0, 0, 0, 0))
circos.initialize(zoom_sector[[1]], xlim = as.matrix(zoom_sector[, 2:3]))
circos.track(zoom_data[[1]], x = zoom_data[[2]], y = zoom_data[[3]],
panel.fun = function(x, y) {
circos.points(x, y, pch = 16, cex = 0.5)
})
}
在上面,f1()
是生成原始图的代码,f2()
是生成缩放图的代码。它们可以独立执行。
要绘制嵌套缩放环形图,只需要把 f1()
、f2()
、corresponance
放到 circos.nested()函数里即可:
circos.nested(f1, f2, correspondance)
在上图中,放大的圆被放在原来的圆内部,第二个圆的起始度被自动调整。
通过切换 f1()和 f2()也可以将放大的圆放在外面。实际上,对于 circos.nested(),它并不关心哪一个被缩放了,它们只是两个圆形图和一个 correspondance 数据而已:
circos.nested(f2, f1, correspondance[, c(4:6, 1:3)])
注意事项:
只能应用整个环形图。 如果 canvas.xlim 和 canvas.ylim 在第一个图设置了,应该在绘制第二个图同样再次设置。 默认情况下,第二个 plot 的起始角度会自动调整,以使原始位置和缩放扇区之间的差异最小。但是,用户也可以通过设置 circos.par("start.degree" =…)手动调整第二个 plot 的起始角度,并且在 circos.nested()中必须将起始度设置为 TRUE。 由于函数需要知道两个环形图的信息,所以不要将 circos.clear()放在每个图的末尾。它们在内部会自动添加。
f1()
和 f2()
只是实现循环绘图的普通代码。还可以添加代码让它更复杂:
sector_col = structure(rand_color(8, transparency = 0.5), names = letters[1:8])
f1 = function() {
circos.par(gap.degree = 10)
circos.initialize(sector[, 1], xlim = sector[, 2:3])
circos.track(data[[1]], x = data[[2]], y = data[[3]], ylim = c(0, 1),
panel.fun = function(x, y) {
l = correspondance[[1]] == CELL_META$sector.index
if(sum(l)) {
for(i in which(l)) {
circos.rect(correspondance[i, 2], CELL_META$cell.ylim[1],
correspondance[i, 3], CELL_META$cell.ylim[2],
col = sector_col[CELL_META$sector.index],
border = sector_col[CELL_META$sector.index])
}
}
circos.points(x, y, pch = 16, cex = 0.5)
circos.text(CELL_META$xcenter, CELL_META$ylim[2] + mm_y(2),
CELL_META$sector.index, niceFacing = TRUE, adj = c(0.5, 0))
})
}
f2 = function() {
circos.par(gap.degree = 2, cell.padding = c(0, 0, 0, 0))
circos.initialize(zoom_sector[[1]], xlim = as.matrix(zoom_sector[, 2:3]))
circos.track(zoom_data[[1]], x = zoom_data[[2]], y = zoom_data[[3]],
panel.fun = function(x, y) {
circos.points(x, y, pch = 16, cex = 0.5)
}, bg.col = sector_col[zoom_sector$cate],
track.margin = c(0, 0))
}
circos.nested(f1, f2, correspondance, connection_col = sector_col[correspondance[[1]]])
实战演练
可视化 WGBS 的 DMRs 区域
基于标记的全基因组亚硫酸氢盐测序(T-WGBS)是一种只能检测感兴趣的一小部分甲基组的技术。我们将演示如何通过 circlize 可视化从 T-WGBS 数据中检测到的 DMRs。
在加载的示例数据中,tagments 包含已测序的区域,DMR1 包含标记区域中检测到的一个患者的 DMRs。标记区域与原始基因组之间的对应以 correspondance 的方式存储:
load(system.file(package = "circlize", "extdata", "tagments_WGBS_DMR.RData"))
head(tagments, n = 4)
## tagments start end chr
## 1 chr1-44876009-45016546 44876009 45016546 chr1
## 2 chr1-90460304-90761641 90460304 90761641 chr1
## 3 chr1-211666507-211692757 211666507 211692757 chr1
## 4 chr2-46387184-46477385 46387184 46477385 chr2
head(DMR1, n = 4)
## chr start end methDiff
## 1 chr1-44876009-45016546 44894352 44894643 -0.2812889
## 2 chr1-44876009-45016546 44902069 44902966 -0.3331170
## 3 chr1-90460304-90761641 90535428 90536046 -0.3550701
## 4 chr1-90460304-90761641 90546991 90547262 -0.4310808
head(correspondance, n = 4)
## chr start end tagments start.1 end.1
## 1 chr1 44876009 45016546 chr1-44876009-45016546 44876009 45016546
## 2 chr1 90460304 90761641 chr1-90460304-90761641 90460304 90761641
## 3 chr1 211666507 211692757 chr1-211666507-211692757 211666507 211692757
## 4 chr2 46387184 46477385 chr2-46387184-46477385 46387184 46477385
在下面的代码中,f1()只绘制了全基因组的环形图,f2()绘制了标记区域的环形图:
chr_bg_color = rand_color(22, transparency = 0.8)
names(chr_bg_color) = paste0("chr", 1:22)
f1 = function() {
circos.par(gap.after = 2, start.degree = 90)
circos.initializeWithIdeogram(chromosome.index = paste0("chr", 1:22),
plotType = c("ideogram", "labels"), ideogram.height = 0.03)
}
f2 = function() {
circos.par(cell.padding = c(0, 0, 0, 0), gap.after = c(rep(1, nrow(tagments)-1), 10))
circos.genomicInitialize(tagments, plotType = NULL)
circos.genomicTrack(DMR1, ylim = c(-0.6, 0.6),
panel.fun = function(region, value, ...) {
for(h in seq(-0.6, 0.6, by = 0.2)) {
circos.lines(CELL_META$cell.xlim, c(h, h), lty = 3, col = "#AAAAAA")
}
circos.lines(CELL_META$cell.xlim, c(0, 0), lty = 3, col = "#888888")
circos.genomicPoints(region, value,
col = ifelse(value[[1]] > 0, "#E41A1C", "#377EB8"),
pch = 16, cex = 0.5)
}, bg.col = chr_bg_color[tagments$chr], track.margin = c(0.02, 0))
circos.yaxis(side = "left", at = seq(-0.6, 0.6, by = 0.3),
sector.index = get.all.sector.index()[1], labels.cex = 0.4)
circos.track(ylim = c(0, 1), track.height = mm_h(2),
bg.col = add_transparency(chr_bg_color[tagments$chr], 0))
}
circos.nested(f1, f2, correspondance, connection_col = chr_bg_color[correspondance[[1]]])
发现更多精彩
关注公众号
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,打赏一下吧!
推 荐 阅 读